草庐IT

php - PHP 网页抓取

全部标签

javascript - casperjs/phantomjs如何保存当前网页?

有没有办法用casperjs或phantomjs保存当前网页?我试图获取html并将其保存到文件中。但是生成的文件与当时的屏幕截图(使用casper.capture)有很大不同。有没有办法保存当前网页? 最佳答案 AndreyBorisko建议使用磁盘缓存来检索资源。我的解决方案效率不高,但您不需要解压缩文本文件。在使用resource.received注册资源后,我使用XMLHttpRequest检索所有资源事件处理程序。然后我将资源过滤为图像、CSS和字体。当前的限制是包含类似../或./的远程资源路径没有得到正确处理。我用ge

javascript - 如何检测由新的抓取标准发起的请求?一般来说,我应该如何检测 AJAX 请求?

在服务器上,知道传入请求是AJAX是很有用的。大多数js库使用XMLHttpRequest,因此提供HTTP_X_REQUESTED_WITH:XMLHttpRequest,但Chrome的实现和Github'spolyfill都没有提供新的fetch使用类似的header。那么如何检测请求是AJAX请求呢?为什么标识其发起者的请求没有通过fetch和XMLHttpRequest标准强制执行?是否应该使用其他东西来做出决策(例如,客户提供他们期望响应的内容类型)? 最佳答案 查看thisissue在Github'spolyfill上

javascript - 我的剪贴板中到底有什么?它如何与网页交互?

当我复制网页中的一些内容时,究竟会发生什么?我的剪贴板缓冲区中会保存什么?我曾经以为它是植物文字,然而,我可以将它的样式或图像粘贴到M$Word或一些Web所见即所得的编辑器中,例如TinyMCE。而且它不是html代码,否则我会在gedit或Notepad中看到标签。我的主要问题是:讲解剪贴板相关知识的文档在哪里?当我制作网页时,是否可以控制用户使用javascript将哪些内容复制到剪贴板? 最佳答案 在Windows上(我猜是某些或大多数其他操作系统),剪贴板可以保存多种格式的数据。例如,在Word中,当您将文本复制到剪贴板时

javascript - 如何使用javascript检查网页中是否加载了Font Awesome?

我需要检查网页中是否包含FontAwesome。如果没有,我将使用javascript加载它。有点像facebooksdk检查是否有一个包含id“facebook-jssdk”的脚本元素,如果有,它就返回(什么都不做),如果没有,它就加载它。我需要为FontAwesome做这件事。 最佳答案 我认为这是检查font-awesome的最佳方式,但我不确定它是否比重新加载更慢,即使它存在。functioncss(element,property){returnwindow.getComputedStyle(element,null).g

javascript - 使用javascript在网页中查找和替换

这个问题在这里已经有了答案:Replacemanytextterms,usingTampermonkey,withoutaffectingURLsandnotlookingforclassesorids(1个回答)关闭5年前。我想做的是用JSbookmarklet/greasemonkey脚本中的“bar”替换网页中“foo”的所有实例。我怎样才能做到这一点?我想jQuery可以工作,因为有黑客可以将它们包含在书签和greasemonkey脚本中。

javascript - 如何实时更新网页?

Google的GMail服务之所以能做到这一点,是因为它集成了GoogleTalk——而Etherpad(现为typewith.me)使该系统出名,例如GoogleWave。当其他用户对页面进行更改时,所有此类系统都会立即有效地更新用户正在处理的页面。很容易在发生更改时告诉服务器发生了更改,但让客户端自行更新则比较困难。这种实时编辑是如何工作的?它只是让客户端每秒ping服务器数十次以获取更新吗? 最佳答案 您可以使用Comet. 关于javascript-如何实时更新网页?,我们在St

javascript - echo'd PHP 编码通过 AJAX 调用的 JSON 返回什么?

我想我在这里遗漏了一些东西:我使用AjAX从数据库中获取一些数据并将其以JSON格式发回$jsondata=array();while($Row=mysql_fetch_array($params)){$jsondata[]=array('cat_id'=>$Row["cat_id"],'category'=>$Row["category"],'category_desc'=>$Row["category_desc"],'cat_bgd_col'=>$Row["cat_bgd_col"]);};echo("{\"Categories\":".json_encode($jsondata)

javascript - 在 R 中抓取 javascript 网站

我想从这个url中抓取比赛时间和日期:http://www.scoreboard.com/game/rosol-l-goffin-d-2014/8drhX07d/#game-summary通过使用chrome开发工具,我可以看到这似乎是使用以下代码生成的:01:20AM,October29,2014但这不在源html中。我认为这是因为它的java(如果我错了请纠正我)。我如何使用R抓取这些信息? 最佳答案 因此,RSelenium不再是唯一的答案。如果您可以安装PhantomJS二进制文件(从这里获取phantomjs二进制文件:h

c# - 在网页上模拟基于点击的事件

此链接转到想象力验证码的实现imagination作者自己要求人们制作算法来测试其对抗AI攻击的效率。基本上,第一页要求在图像上的任意位置单击鼠标...我的问题是我的算法得出图像上的点(x,y),但我想在此链接上实时模拟它...谁能告诉我如何在此链接上发送点值并返回消息,无论我是否成功......本质上,我是在问如何在我的算法使用C#给出的点上模拟鼠标单击此链接...我问这个只是为了研究这个验证码的特征及其准确性。非常感谢 最佳答案 如果您能够直接在该页面上执行JavaScript,则此代码将执行以下操作:submitClick(d

javascript - PHP的退出;在 JavaScript 中?

相当于PHP的退出是什么;在Javascript/jQuery中?我需要根据某些条件提前停止我的脚本...我从搜索中找到的唯一答案是停止提交表单... 最佳答案 你可以试试:throw"stopexecution";使用return将跳过当前函数,这就是为什么throwing更类似于PHPexit(); 关于javascript-PHP的退出;在JavaScript中?,我们在StackOverflow上找到一个类似的问题: https://stackover